第 12 屆 iThome 鐵人賽

DAY 12

0

AI & Data

今晚，我想來點經典ＮＬＰ論文。系列第 12 篇

[D12] Dynamic topic models (Blei and Lafferty, 2006) 2/2

12th鐵人賽

2020-09-26 20:21:46

804 瀏覽

分享至

Key Points

前略。
資料集：
- 用 1881年到 1999年的 Science 期刊。（！）
  - 資料源在這裡。
- 每年抽出 250 篇文章出來，總共三萬篇。
- 前處理：
  - stemming。
  - 移除出現次數少於 25 次的文字。
  - 最終字典大小：15,955字。
實驗1：
- 設定 20 個主題的模型。
- 以上的兩張圖來自於兩個主題，每張圖分成三部分：
  - （上）：120 年來該主題的變化。
  - （下左）：文字的後驗機率（每張圖三個字，注意三個字的量級不一定一樣（作者也沒給單位））。
  - （下右）：每年相關的文章。
實驗2：
- 測試是否能基於時間點 t 的模型預測時間點 t + 1 的文章。
  - 這裡的預測是用 variational bound 來衡量，算出下一年文章的 negative log likelihood 總和。
- 三種模型：
  - DTM (本文)
  - 用過去所有年份的資料 (t0 ~ t) 訓練出來的 LDA 。
  - 用過去一年的資料 (t) 訓練出來的 LDA 。
- 結果：
  - 可以看到 DTM 的數值最低表現最好。

Thoughts

不知道是不是因為 t 是 t-1 的函數，每年的文字變化還蠻細微的。
蠻多重複的字一再出現，如 theory，有點好奇在 science 這樣的文本中，theory 這個詞不會出現在各個 topic 裡嗎？
Matter 這個詞逐漸式微，和下面的 nerve 被 neuron 比下去一樣。研究的客體總是單位越來越小，越來越精確？
quantum 這個詞展現了什麼叫做文藝復興，應該也要拿 ML 相關的文章來做做看，看是否 Neural Network 也是這樣的趨勢。

[D11] Dynamic topic models (Blei and Lafferty, 2006) 1/2

[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2

系列文

今晚，我想來點經典ＮＬＰ論文。共 17 篇

目錄

RSS系列文訂閱系列文

1 人訂閱

完整目錄

直播研討會

{{ item.subject }}

{{ item.channelVendor }} {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22200 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙